查看原文
其他

[IEEE TIFS 2022] 深度软动态时间规整:用于联机签名认证的局部表征学习新方法(有源码)

江佳佳 CSIG文档图像分析与识别专委会 2022-12-15
本文简要介绍被IEEE TIFS 2022录用的论文“DsDTW: Local Representation Learning with Deep soft-DTW for Dynamic Signature Verification”。动态时间规整(DTW)算法是联机签名认证领域中经典的基准方法。随着深度学习的发展,DTW与深度神经网络相结合的联机签名认证方法开始受到了研究者的关注。然而,DTW算法对其输入是不完全可微的,这导致神经网络无法进行端到端的训练,从而阻碍网络学习到更有效的签名表征。为此,该论文引入DTW的平滑形式——软动态时间规整(Soft-DTW)[1],提出了一个端到端可训练的深度软动态时间规整(Deep Soft-DTW, DsDTW)模型。该模型利用卷积循环自适应网络学习签名的深度时间函数作为DTW的输入,并将签名对的soft-DTW距离纳入到三元组损失函数中,从而实现端到端优化。该方法有效地结合了深度神经网络的表征学习能力和DTW算法的序列对齐能力,在多个公开联机签名数据集上达到了领先的结果,并以明显的优势取得了ICDAR 2021联机签名认证比赛(SVC 2021)的冠军,在其它联机手写签名及笔迹分析任务上也具有较好的扩展性。本文方法已开源,下载链接见文末。 

图1 总体框架图

一、研究背景



签名认证是一种重要的身份认证技术,它的认证对象是书写者的签名或其简写,因经常书写而具有较强的个人风格。与人脸、虹膜、指纹、声纹等特征相比,手写签名能够通过非侵入式、更加用户友好的方式进行采集,因此签名认证已被广泛应用于商务活动、银行办公、安全认证等场景。进入信息时代以来,随着电子设备的普及,联机手写签名认证技术得到了广泛的发展,获取媒介从最初办公场景的专用设备演变到当前的智能手机、电子平板等移动终端。在这些场景中,书写者可以灵活地选择手写笔输入(Stylus)或者手指输入(Finger)。然而,联机手写签名在跨时间和跨设备的场景下通常会呈现出较大的类内差异,容易遭受仿冒签名的攻击,这给联机签名认证任务带来了很大的挑战。

动态时间规整(DTW)是联机签名认证领域久经实践的有效技术,通过适当改进之后仍能保持业界领先的结果。一个理想的DTW签名认证系统,应具有稳定、高区分度的时间函数作为输入,且对序列中局部的噪声或离群值具备一定鲁棒性。直观上,深度神经网络能够满足DTW签名认证系统的理想特性。首先,通过判别式的训练方式,网络的多层非线性变换能够实现有效的特征变换与选择;其次,通过引入上下文信息,序列中的噪声或离群值能够被有效地过滤或抑制。然而,深度学习方法与DTW的结合尚未受到广泛的关注,且已有的少数深度方法也由于DTW求解过程含有不可微的Min操作而无法实现端到端的训练[2]。因此,该文基于卷积循环自适应网络(CRAN)与可微分Soft-DTW距离,提出了端到端可训练的DsDTW模型,赋予了经典的DTW以表征学习能力。

二、方法原理简述



该框架的工作机制具体如下:首先,提取联机签名序列的多维时间函数。其次,将各时间函数送入CRAN进行非线性特征建模和上下文建模。接着,计算待比较的签名对之间的Soft-DTW距离,并将其加入到三元组损失函数中进行训练。最后,在测试阶段使用原始DTW来计算签名对之间的距离,并利用基于距离的分类器得到最后的认证结果。

提取签名的时间函数表示[3],包括:水平与竖直方向速度、速度、角度、压力、速度和角度的一阶差分、对数曲率半径以及向心加速度。每个时间函数都归一化至 0 均值 1 方差。通过人工提取时间函数,为网络输入尽可能多的信息,有利于网络的学习。 

图2  DsDTW模型的结构图

CRAN结构从输入时间函数中提取特征序列,其结构如图2绿色框所示,主要包括两个卷积层、两个循环层以及一个全连接层。卷积层的激活函数为 ReLU,两个卷积层之间插入了一个最大池化层,对序列进行两倍下采样。循环层由门控自回归单元GARU[4]构成。与常用的GRU相比,GARU只采用重置门,而移除了更新门,在该任务上其表现优于GRU和LSTM。

计算签名对的Soft-DTW距离。给定两个联机签名的时间函数表示为d维的局部特征向量,序列X和Y的列向量之间的损失矩阵为,其中定义为可行的二值对齐矩阵的集合,为二值对齐矩阵,满足边界条件,且具有单调性与递增性。那么,DTW 距离定义如下:

其中,表示A和的内积。式1可通过动态规划的方式进行求解,然而该过程涉及了非平滑的Min函数,故而DTW距离关于序列𝑋与𝑌的梯度未有很好的定义。为此,该文引入了签名对的Soft-DTW[1]距离,定义如下: 

其中,为带有平滑参数γ的广义Min算子,定义如下:

Soft-DTW是原始DTW的平滑化表达,当𝛾=0时,Soft-DTW恢复为原始的 DTW,即注意,该文在训练阶段使用Soft-DTW,但在测试阶段使用原始DTW,即Soft-DTW的平滑参数𝛾在测试阶段置0。Soft-DTW的优势在于它以可微分的方式考虑了所有对齐方式的损失的加权和,且具有更好的损失曲面,因此当被用在数值优化中时更为稳定。而在测试阶段,DTW能够提供确定的最优路径。

迟池化策略。一般来说,联机签名对的时间分辨率越高,则认证精度也越高,同时计算量与内存消耗呈平方级增长。为了权衡认证精度和计算量与内存消耗,论文还提出了如下的迟池化策略。具体的,记CRAN为函数𝑓(⋅),以及任意的一阶池化函数为𝜑(⋅)。对于签名样本对𝑋和𝑌,在训练阶段采用如下距离:

其中|⋅|表示签名序列的长度。而在测试阶段使用如下距离:

池化函数𝜑(⋅)仅在训练阶段使用,并作用于CRAN的输出序列,这样能够在训练阶段降低显存要求的同时,在测试阶段恢复序列的时间分辨率,相比于在 CRAN中插入池化层,较大幅度提升了模型的认证精度。 

基于三元组的损失函数。记每个数据批采样位不同用户,对于第k位用户(),采样一个真实签名作为锚点,另外个真实签名作为正样本,以及个随机伪造签名或熟练伪造签名作为负样本。因此,对于每位用户,共有个三元组。对于三元组,损失函数为:

其中ξ为非负间隔参数。将签名对的soft-DTW距离融入到第k位用户的损失函数中:

总体损失函数为:

其中,第二项表示真实签名的类内差异,使得模型在保持真实签名类内紧凑的同时,区分开真实签名与伪造签名。     

图3 基于归一化得分的分类器

分类器构建与距离归一化策略。在认证阶段,论文使用基于式5所示距离的分类器进行真伪签名认证。具体的,给定任一用户k的𝑛个真实签名作为模板,首先计算模板签名的类内距离为(若𝑛=1则令=1)。然后,对于声称为用户k的待认证签名𝑌,计算如下归一化得分:

如图3,给定一个阈值th,若,则签名𝑌被分为用户k的真实签名,否则即为伪造签名。

三、主要实验结果



该论文使用了四个数据集进行实验,包括DeepSignDB、MCYT-100、SVC-Task1以及 SVC-Task2。DeepSignDB数据集是目前最大规模的联机签名数据集,由五个子集构成,分别是MCYT、BiosecurID、 Biosecure DS2、E-BioSign DS1以及 E-BioSign DS2,共含有来自1526位用户的69972个签名,采集自多个不同型号的数字平板与移动设备,书写工具分为手写笔(Stylus)以及手指(Finger)。论文遵循DeepSignDB 数据集的实验协议,使用前N个真实签名作为模板(N vs 1),以等错误率(EER)作为评价指标。

论文针对Soft-DTW、迟池化策略以及基于归一化距离的分类器等进行了丰富的消融实验,证明了所提出方法的有效性,还探究了Soft-DTW中平滑参数𝛾、迟池化策略𝜑(⋅)的影响,并给出了详尽的分析。其中,Soft-DTW的消融结果如表1所示,在大多数场景,使用Soft-DTW(γ取5)比使用DTW(γ取0)取得了更优的认证结果,即论文所提出的Deep Soft-DTW方法优于Deep DTW方法。

表1  Soft-DTW的消融实验 

对于基线结果,论文将DsDTW与传统的DTW、DeepSignDB的基准模型TA-RNN进行了比较,结果如表2所示。与TA-RNN相比,DsDTW在熟练伪造场景取得了明显更低的等错误率;与DTW相比,除了Finger输入的随机伪造场景,DsDTW均大幅优于DTW,证明了基于soft-DTW的CRAN结构能够学到有效的深度时间函数。相比于TA-RNN,DsDTW的优势在于序列对齐是基于深度特征进行的,故而对于原始时间函数中的噪声或离群值更为鲁棒。

表2  签名认证的基线对比实验 

图4  DTW与DsDTW对于两个签名的对齐路径 

图4可视化了 DTW与DsDTW对于两个签名的对齐路径,可以看到,经过 CRAN的特征学习,DsDTW与DTW有着较为不同的对齐方式。为了量化对齐效果,论文计算了DsDTW与DTW的直接匹配点数量,发现在DeepSignDB上,DsDTW的平均直接匹配率(63%)比DTW的平均直接匹配率(60%)高了三个百分点。这表明DsDTW可以提升签名序列的局部稳定性,从而减少了匹配歧义,达到更好的序列对齐效果。

论文进一步地在MCYT-100、SVC-Task1与SVC-Task2数据集上进行测试,以便与更多现有工作进行比较。结果如3所示,可以看到DsDTW在三个数据集的熟练伪造场景上均取得了领先的结果。在SVC-Task1与SVC-Task2数据集上,DsDTW没有经过任何微调即大幅降低了等错误率,表明CRAN学到了十分有效的联机签名表征。此外,论文还针对计算量和推理速度对已有方法进行了比较和分析,详见原文。

表3  在其他公开数据集上与已有方法的对比结果 

在ICDAR 2021的联机签名认证竞赛SVC 2021上,DsDTW模型以明显的优势获得了比赛冠军。该比赛提出了一个新的测试集SVC2021 EvalDB,覆盖了Stylus场景、Finger场景和Stylus/Finger混合场景。表4总结了在该测试集上各个模型的认证结果,可以看到,DsDTW在所有三个任务中都取得了最好的结果。与基线方法DTW相比,DsDTW在三个任务分别相对改善了74.54%、50.34%和58.83%。TA-RNN模型也取得了相对令人满意的结果,但仍然落后于DsDTW。比赛结果充分证明了DsDTW模型在联机签名验证领域的巨大潜力。

表4  ICDAR 2021 SVC签名认证竞赛结果对比 

最后,论文还将拓展到了其他的联机手写笔迹分析任务上,并取得了令人满意的结果。如表5所示,在基于联机手写数字的身份认证实验上,DsDTW大幅度领先于已有方法。如表6所示,在基于联机手写字母的书写者识别实验上,DsDTW也取得了令人满意的结果。

表5  基于联机手写数字的身份认证结果对比 
表6基于联机手写字母的书写者识别结果对比 

四、总结和讨论



该文提出了一个端到端可训练的DsDTW模型,大幅提高了DTW方法的联机签名认证精度。与已有方法不同的是,该方法计算签名之间的Soft-DTW距离,并将其纳入损失函数进行优化。由于Soft-DTW可微,整个系统是端到端可训练的,从而能够令深度神经网络与DTW得到有效结合。DsDTW模型在DeepSignDB、MCYT-100、SVC-Task1、SVC-Task2等数据集上均取得了业界领先的结果,在其他的联机手写分析任务上也具有较强的拓展性。

在未来,DsDTW模型仍可通过以下几个方面进行进一步改进。首先,Soft-DTW中的平滑参数𝛾的最优数值目前是通过大量实验搜索确定的,比较费时费力,因此为𝛾设计自适应策略是值得考虑的问题。其次,相比于部分工作,DsDTW目前对于随机伪造签名的认证错误率仍相对较高,故如何进一步降低该错误率有待研究。最后,DsDTW模型目前使用的主干网络结构较为简单,因此可以尝试探索更为先进的神经网络结构。

五、相关资源



论文链接:https://ieeexplore.ieee.org/abstract/document/9787558

代码链接:https://github.com/KAKAFEI123/DsDTW

参考文献



Cuturi M, Blondel M. Soft-dtw: a differentiable loss function for time-series[C]//International conference on machine learning. PMLR, 2017: 894-903.

Wu X, Kimura A, Iwana B K, et al. Deep dynamic time warping: end-to-end local representation learning for online signature verification[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 1103-1110.

Martinez-Diaz M, Fierrez J, Krish R P, et al. Mobile signature verification: Feature robustness and performance comparison[J]. IET Biometrics, 2014, 3(4): 267-277.

Lai S, Jin L. Recurrent adaptation networks for online signature verification[J]. IEEE Transactions on information forensics and security, 2018, 14(6): 1624-1637.


原文作者:Jiajia Jiang†, Songxuan Lai†, Lianwen Jin, Yecheng Zhu


撰稿:江佳佳、赖松轩

编排:高 学
审校:连宙辉
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾





欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫码关注,获取最新OCR资讯



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存